宝藏级深度数据挖掘:Dr. Tom + GSEA,一键分析,快速解读!
在转录组测序数据分析中,我们常常运用富集分析,将海量的基因数据从基因层面转化为功能层面,深入解析基因和表型之间的相互关系。
01
为什么要使用基因集富集分析(GSEA)?
常用的富集分析方法主要有两种,传统的富集分析(Enrichment Analysis)及基因集富集分析(Gene Set Enrichment Analysis,GSEA)。
传统的富集分析(通常为GO富集或KEGG富集)会针对所有的差异基因(DEG),通过超几何检验,找出显著富集的功能或通路。然而,这种方法有一个小问题:它只关注差异基因,可能会忽略那些表达变化不大、但对代谢通路有调控性影响的基因。另外,传统的富集分析仅反映差异基因的分布情况,没有考虑基因的表达量及变化趋势,基因是上调还是下调并不会影响富集的结果。所以,传统的富集并不能告诉我们具体的功能通路是被激活还是被抑制。
想要具体探究功能/通路的表现情况,我们可以使用GSEA。GSEA考虑了所有表达的基因在比较组中的差异表达情况,通过判断某一预定义基因集(即某一具体的通路/功能)中的大部分基因在比较组中是否发生了高表达/低表达,从而说明对应的功能是否发生显著变化,以及发生了怎样的变化(激活或抑制)。
02
GSEA分析原理
在进行GSEA分析时,首先按照差异表达(通常采用Singal2Noise值,计算方法见下*)的由高到低对所有表达的基因进行排序,然后依次将基因与预定义好的基因集(即注释好的功能/通路)进行比较。若基因存在于该功能通路中,则得分,若不存在,则减分。当遍历完所有基因后,可绘制出该功能通路的得分曲线。以遍历过程中累计得分绝对值最大的分数作为功能/通路的富集得分(Enrichment Score, ES)。对ES进行显著性检验,获得名义P值(nominal p value)。对ES进行标准化处理,获得校正后的富集得分(Normalized Enrichment Score, NES)。对NES进行多重假设检验获得FDR值。
其中,μT为处理组各样本该基因表达量的平均值,μC为对照组各样本该基因表达量的平均值;δT为处理组各样本该基因表达量的标准差,δC为对照组各样本该基因表达量的标准差。
03
GSEA官方数据库:MSigDB
那么,我们在做GSEA分析时,预定义的基因集从哪里来呢?
GSEA官方提供了一个注释数据库——MSigDB,其中收录了33,591个人的预定义基因集和16,063个小鼠的预定义基因集,并会不断进行更新。虽然其他物种的信息暂未收录,但我们仍然可以根据自己的需求使用其他的注释数据库(如GO、KEGG等)中的通路或功能条目作为预定义基因集,用GSEA的分析方法进行富集分析。
04
GSEA分析工具使用
GSEA官网上提供了开源软件,用户可以自行下载使用。为了给我们的合作伙伴提供便利,我们在Dr. Tom多组学数据挖掘系统上提供了GSEA分析工具,可无限使用。通过简单的参数设置,则可快速进行GSEA分析。
在工具箱中选择GSEA工具,按照图示步骤定义好分析参数后,提交分析任务,可在系统上一键查看结果。
05
GSEA结果查看及解读
Dr. Tom系统中,GSEA分析结果主要分为三个区域:功能/通路表、图区及对应的基因表格。
功能/通路表中包含各预定基因集对应的ES、NES、名义P值、FDR值等计算结果。
注意,功能/通路表区分了对照组和处理组,在处理组中的功能/通路,其ES为正值,说明该功能/通路在排序列表的顶部(在处理组中表达上调的基因)富集,该功能/通路在处理组中被激活;而在对照组中的功能/通路,其ES为负值,说明该功能/通路在排序列表的底部(在处理组中表达下调的基因)富集,说明这些功能/通路在处理组中被抑制。名义P值通常以P<0.05作为判断标准,P值越小,统计显著性越高;FDR通常以FDR<0.25作为判断标准,FDR越小,富集结果越可靠。当然,标准不是固定的,根据不同的课题背景及数据情况,阈值可适当调整。
在功能/通路表中点击对应通路的Figure按钮,图区会显示该功能/通路的分析结果。
领头亚集中的基因是对ES贡献最大的基因集合,当需要回归到基因层面的研究时可考虑优先关注这部分基因。ES值为正值的功能/通路,领头亚集位于ES对应排序的基因之前;ES值为负值的功能/通路,领头亚集位于ES对应排序的基因之后。
单击领头亚集区域,在基因表格中会展示领头亚集基因的信息,可以使用其他的可视化工具做进一步的挖掘,如绘制这些基因的表达量热图,通过PPI网络图寻找这些基因中的关键基因等。
06
GSEA分析应用案例
//
发表期刊:Molecular Cancer
发表时间:2022年
影响因子:17.794
摘要:环状RNA(circRNA)介导肿瘤相关巨噬细胞(TAM)的浸润,以促进各种类型癌症的发生和发展,但在调节前列腺癌(PCa)巨噬细胞中的作用仍不确定。本研究首先通过RNA-seq、qRT-PCR等手段确定环状RNA circSMARCC1为研究目标,并确认circSMARCC1与小RNA miR-1322直接结合并抑制miR-1322的功能。而后研究circSMARCC1在前列腺癌巨噬细胞调控中的具体机制。
实验设计:对过表达circSMARCC1的前列腺癌癌细胞(DU145-lv-circSMARCC1)及前列腺癌癌细胞DU145-vector进行转录组测序,比较基因表达的情况并做功能分析。
结果:与DU145-vector相比,DU145-lv-circSMARCC1细胞中有151个基因上调,209个基因下调。KEGG富集及GSEA分析结果表明,PI3K-Akt通路发生富集,且与circSMARCC1过表达呈正相关。circSMARCC1通过激活参与细胞增殖和上皮间质转化的Akt通路,促进PCa进展。
注:文章中的富集分析及GSEA富集分析均在Dr. Tom多组学数据挖掘系统中完成。上文仅展示文章中部分结果。
目前,虽然GSEA分析方法在转录组数据的分析中的应用已经非常广泛和成熟,但传统的富集分析也并非无可取之处,在实际应用时应结合研究背景、研究目的、数据情况及分析结果综合判断,选择最适合的结果。
最近微信改版了
大家记得把华大科技“星标”⭐哦
从此科研资讯不迷路~
撰稿:鱼
编辑:市场部
近期热文
了解更多产品服务及资讯,关注我们!
点击“阅读原文”直达Dr. Tom网页